哈佛大学砸牌子了!大数据流行病学的典型误用(组图)

近日,美国哈佛大学医学院的一个团队,发布了一个关于新冠病毒的最新调查,称他们通过分析100多张武汉6家医院停车场的图片,以及中国百度的搜索引擎数据,发现早在2019年秋季甚至8月,武汉就出现了一些异常。这篇哈佛大学的论文,随后被美国广播公司进行了“独家”报道,并在美国CNN、英国BBC等一众西方主流媒体“无脑”地跟进下,在境外舆论场迅速传播开来,进而引来了想将美国政府防疫失职的责任推卸给中国的美国总统特朗普及其支持者,以及一直想要抹黑中国的“港独”“台独”势力的疯狂扩散。

然而,这篇论文存在大量明显而且极为低级的漏洞,完全配不上哈佛大学医学院的水平,以至于让人不得不怀疑这是不是一篇“命题作文”。

文 | 耿直哥  樊巍  赵瑜莎

本文转载自微信公众号“环球时报”(ID:hqsbwx),首发于2020年6月10日,标题为《深度扒皮:哈佛大学医学院这回在中国身上,算是彻底砸牌子了》,不代表瞭望智库观点。

1

一篇罩着哈佛大学医学院光环的论文

成了特朗普当局和反华势力攻击中国的炮弹

我们先来介绍一下这篇论文的内容。这篇论文目前预发布在哈佛大学的Dash学术平台,但【尚未经过同行评审】。

(截图来自论文的原文部分)

这篇论文的主要内容,是通过①对比2018年10月和2019年10月这两个时间段,武汉中南医院、湖北妇幼保健院、武汉天佑医院、武汉同济医院、武汉中心医院和武汉协和医院这6所医院停车场内车辆数量的变化,以及②对比这两个时间段里武汉网民在中国百度搜索引擎检索“咳嗽”和“腹泻”这两个关键词的数量,便得出了一个在新冠肺炎被中国官方于12月底发现之前的2019年秋季甚至8月,当地就可能已经出现了异常的结论。

这篇论文还拿出了一些图片“证据”,比如2018年10月和2019年10月武汉同济医院停车场数量的变化图,6家武汉医院停车场车辆数量变化的曲线图,以及百度搜索引擎检索相关关键词数量的曲线图等等,如下图所示。

(截图来自论文的原文部分)

而在这篇论文甚至还没有预发布之前,就已经拿到了论文的更多数据并进行了“独家”报道的美国广播公司(ABC),则给出了更多哈佛医学院这篇论文没有公开在哈佛Dash平台上的数据,比如下面这四张对比了武汉中南医院、同济医院、天佑医院和湖北妇幼保健院停车场车辆数在2018年10月和2019年10月变化的图片:

(截图为美国广播公司在其“独家”报道里给出的停车场对比图片)

如果大家不仔细看这四张图片,只是被动地接受美国广播公司的报道提供的信息,那么确实会认为2019年10月上述四家医院停车场的车辆数量,比2018年同期增加了很多。

那么,在这样的认知下,当哈佛大学医学院的论文和美国广播公司的报道再抛出的这些停车场车辆数的增加,与同期百度搜索引擎上武汉网民对于“咳嗽”和“腹泻”这两个典型新冠肺炎症状的检索量的增加相吻合的说法时,对于那些缺乏独立思考能力,很容易被忽悠和“割韭菜”的人来说,这还真可能证明了美国广播公司、BBC、CNN等西方主流媒体,以及英国《每日邮报》等西方小报在他们关于这篇论文的报道中,纷纷打出的“新冠肺炎可能在去年8月就出现在武汉了”的情况。

更何况,这还是美国乃至全球“久负盛名”的哈佛医学院的学者们推出的论文,而且美国广播公司的独家报道中甚至还有Peter Daszak这位此前一直在斥责美国政府炒作“病毒来自武汉实验室”阴谋论的“良心科学家”给论文站台,称这种用卫星分析疫情先兆的做法“很有趣”。BBC、CNN等西方主流大媒体更是在报道中没有任何对这篇论文的怀疑态度。所以,这样的论文又能有什么问题呢?

于是,即便这篇根本没有经过“同行评审”就拿给媒体进行炒作的论文,在一些学者看来存在学术操守上的问题——尤其是论文的作者之一John Brownstein,本身就是“独家”报道了这篇论文的美国广播公司的撰稿人,这篇论文却因为迎合了美国特朗普政府将其防疫失职的责任推卸给中国的政治需要,以及包括“港独”和“台独”等境外反华势力抹黑中国的政治需要,很快就在境外的网络上火爆了起来,被这些反华势力当成了“事实”,忽悠着那些缺乏独立思考能力的美国和西方网民。这些网民也纷纷上套,在评论里如同机器人一般叫嚷着“中国果然说谎了,果然隐瞒了”等内容。

截至目前,从美国总统特朗普、特朗普的儿子,到美国常年盼着中国崩溃的反华分子章家敦,以及乱港势力的头目之一黎智英等人,都已经转发了这个哈佛医学院给他们提供的炒作阴谋论的“炮弹”论文。一些最近和中国疯狂较劲的印度媒体,也在拿着这个论文丑化中国,迎合印度的“民族主义”情绪。

2

漏洞百出的论证和论据,被专业人士鄙视

完全配不上哈佛大学的水准

然而,就在哈佛大学医学院的牌子,以及西方多家主流媒体积极报道与推崇的光环之下,这篇论文却存在着大量肉眼可见的低级漏洞,以及对于中国一些基本常识的缺乏。

因此,我们就将深度扒皮这篇论文中的这些漏洞,并用尽量简单直观的方式呈现给大家。

我们先从这篇论文的核心“证据”,6家医院停车场的车辆变化说起。

请大家再看一遍美国广播公司给出的这些武汉医院的停车场在2018年10月和2019年10月的对比图,这次,我们把出现问题的地方用黄颜色的圆圈给标记了出来:

怎么样,发现了吧?上面这四张图中左边2018年10月的图片,与右边作为对比的2019年的图片,不仅其中建筑物所呈现的角度不同,而且太阳光照射的建筑物所呈现的阴影也存在明显的差异。

这些差异首先意味着,几乎每个2018年的图片中都有因为建筑物的角度问题而对于医院内停放车辆的遮挡。这也就直接导致2018年的车辆数量,看起来比2019年的数量少了很多。

我们这里专门选取了一个2017年5月28日武汉中南医院的停车场的卫星照片,大家可以用这张图,尤其是图中红圈圈出来的四个位置,在去对比哈佛大学医学院论文中该院停车场的对比图。你们也会发现,由于角度没被遮挡,所以2017年该院停车场的车辆数,也会显得多于2018年。

其次,这些对比图片中太阳光照射的建筑物所呈现阴影的不同,也大有学问。

咱们中国的老百姓都知道,中国每座城市的大型医院,其问诊量在不同季节,每一周的不同时间,每一天的不同时间段都是有着明显差异的。通常而言,一天当中的上午一般是求医的高峰期,上午的时候病人会早早来到医院挂号求医,其他时间的病人量就会相对较少。这也就意味着,在正常情况下,在上午这个时间段,医院的停车场本就有可能比其他时间段停放更多的车辆。如果用一张上午拍摄的停车场停车高峰期的照片,去对比中午或者晚上等其他停车低峰期的照片,再得出某种预设的结论,这本身就不是科学,而是“玄学”了。

而从上面四张美国广播公司“独家”给出的对比图中,我们可以明显看到,2018年拍摄的医院建筑物阴影与2019年拍摄的医院建筑物阴影存在明显差异,这就说明这两组图分别由不同的卫星拍摄于一天中的不同时间段,而这也会直接影响到院内车流的情况。

北京航天世景信息技术有限公司总经理徐丽萍在接受我们的记者樊巍采访时表示,建筑物由太阳照射产生的阴影会随时间、季节的不同而不同,所以对地观测卫星一般采用的是太阳同步轨道。这种轨道的卫星基本是在相同的时间点经过同一观测区域,这样对同一建筑物拍出的影像所呈的太阳阴影也大致相同。所以,如果在同一季节对同一建筑物拍摄的影像,阴影有很大不同的话,那很可能是两颗不同的卫星在不同的时间段拍摄的。

另一位不愿意透露姓名的航天遥感专家则更加直观地表示,哈佛研究团队所采用的RS Metrics公司的卫星图像分析数据就是来自于一天中的不同的时间段。因为这家公司所使用的这些卫星影像源自于航天技术公司maxar technologies,这家公司主要使用的worldview商业成像卫星系统一般是在当地时间上午十点半左右过境,但是其中一幅2018年拍摄的武汉同济医院的黑白卫星影像则是出自于worldview-1卫星,这颗卫星在2016年已将过境时间调整到了当地时间中午一点半。

这也就意味着2018年的停车场车辆较少的卫星照片拍摄于当天中午一点半,而2019年停车场车辆较多的卫星照片拍摄于当天上午十点半。通过这样的卫星图去进行比较,从而得出2019年10月武汉同济医院病人已经明显增多的结论,这种分析实在是有失水准。

(图为worldview-1卫星调整过境时间通报)

因此,哈佛大学医学院的这篇论文虽然宣称,他们取材的这些卫星照片都选择了“当地中午”时间,还说为的是避免拍照角度和阴影的问题,可他们实际呈现出的论文,仍然充斥着这些严重的问题。

更关键的是,不论是这篇论文和美国广播公司的独家报道,都没有给出这个“中午”的具体时间范围是什么。目前也不清楚这个关键信息缺失的原因是什么。

另外,在涉及湖北妇幼保健院的那张图里(如下图所示),我们还可以通过紫色的圆圈标记,明显看到2018年时该院那片被圈出来的土地并没有变为停车场,而在2019年时则变为了停车场,因此多出了不少车辆。但论文和ABC的报道都没有提及此事。

一位不愿意透露姓名的武汉当地居民也表示,卫星影像上所拍摄的湖北省妇幼保健院停车场并非是医院的专用停车场,而是在院区改造过程中,将暂时闲置的建设场地临时用作停车场,从2018年到2019年,随着建设场地的不断拓宽,也就有了更多的停车位。湖北省妇幼保健院位于武汉市街道口商圈,许多周边工作人员发现医院内有停车位,选择在此停车这也是十分正常的事情。

我们的记者赵瑜莎采访到的湖北妇幼保健院的工作人员也称,卫星上拍到他们医院的那块场地是停车场,从去年开始就在施工,在扩建停车场。

更暴露哈佛医学院这篇论文的作者无知的是,湖北妇幼保健院是一家承担湖北省妇女儿童医疗、保健、生殖健康技术指导、健康教育、妇幼卫生信息管理、科研教学等任务的专科医院,其院内并未设有面向成人的呼吸内科,普通武汉市民突患发烧咳嗽也不会前往湖北省妇幼保健院求医问诊,所以这家医院停车场车辆数量的增加并不能和新冠肺炎疫情的暴发产生任何关联。

武汉中南医院的一位彭姓医生也在接受我们的记者赵瑜莎采访时称,他并没有在论文说到的时间点内感觉明显增加的车流量,也没有在那个时候接收到有明显新冠肺炎症状的病人。

他说,依照病毒这么强的传染性,如果早在去年秋天出现,那么暴发时间也会提前,是根本瞒不住的。

这些过于明显的低级漏洞,也在境外的社交平台“推特”上引起了不少卫星影像分析人士的关注和批评。下面这位名叫Harel Dan的卫星图像分析人士就指出,论文和美国广播公司的独家报道中给出的对比图像中角度的差异太过明显,而且还忽视了一家医院新开辟了停车场的情况。

在他这则网贴的评论部分,也有其他专业网民对论文为何没有给出这些对比照片具体的拍摄时间,以及过于明显的角度问题,提出了大量质疑,并认为这些卫星图片的对比没有实际的意义,只是“看起来很有创意”。

讽刺的是,由于美国广播公司,CNN和BBC这些西方主流大媒体都在不加甄别地报道这个论文,没有对论文的漏洞提出任何质疑,导致这些专业的声音现在在境外的舆论场上都被掩盖了过去。

只有英国路透社在报道中国外交部昨天驳斥这份论文的事情时,稍微用心多采访了两名第三方的专家,而这两位来自英国的专家也立刻对论文提出了质疑,称虽然论文用卫星图片进行分析的套路“有趣”,但其结论可能没有什么意义,甚至给人一种“强行关联”的感觉。

其中一名专家甚至也指出,论文拿湖北妇幼保健院来说事也存在问题,因为儿童更容易因感冒而出现症状,而不是新冠肺炎。

(截图来自路透社的报道)

说完了卫星图片的问题,接下来我们再来扒皮百度搜索引擎检索量的问题。各位请看下图,这是哈佛医学院那篇论文里给出的所谓“2019年秋季在百度上检索咳嗽和腹泻的武汉人增加”的核心证据,注意其图片给出的时间范围为2018年5月(含之前)至2020年5月。

(截图为论文原文给出的图表)

然后各位再来看下面这张图,这是我们使用百度搜索引擎的“百度指数”功能,设定了同样的检索关键词(咳嗽和腹泻)、检索地域(武汉)以及相似的时间范围(2018年4月-2020年5月)后,得出的曲线图,你们看这张图是不是和上面的曲线图非常相似呢?

没错!堂堂哈佛医学院用来推断武汉在去年秋季甚至8月就出现“异常”的第二个核心证据,就是我们简单操作一下就能得出来的这个图片…..

而且,哈佛医学院的论文对于这个曲线图的使用,也同样存在着十分明显的漏洞,只要我们再把时间线拉长一些,把2017年也算入进去,就会一下子发现问题所在,如下图所示:

是的,被哈佛大学医学院认为在2019年9月开始出现的对于咳嗽和腹泻这两个关键词的检索“明显”增加(最右侧红圈),还不如2017年和2018年同期的检索量增加的猛烈呢。按照他们的逻辑,这恐怕得说明2018年甚至2017年秋季武汉就出现“异常”了?

(截图来自论文的原文部分)

这里还需要告诉大家的是,把这篇粗制滥造、漏洞百出,简直是砸哈佛大学医学院牌子的论文,当成是个“大新闻”进行“独家”报道的美国广播公司,在报道这些图表时,可能也被这篇论文散发出的浓浓的“低级”气息所污染了,以至于他们在报道中制作的图片都写错了时间,把2020年5月写成了2019年5月,导致论文中原本就禁不起检验的图片,更加令人摸不着头脑了……

而且,这个错误就这么在美国广播公司的网站上晒了足足2天,截至我们撰写此文时仍然没有被更正。

3

败坏哈佛大学名声的学术之耻

当然,对于我们把这篇论文批得一无是处的做法,哈佛大学医学院撰写这个论文的作者们可能会觉得有些冤。因为他们会指出他们在论文中也明确写了这个论文对于卫星图片和搜索引擎数据的使用存在“局限性”,而且这些结果也无法验证这些医院停车场和搜索引擎数据上的变化与新冠病毒有关。

(截图来自论文原文中的相关部分)

但在我们看来,这篇论文的问题根本不是“局限性”的问题,而是一篇为了蹭新冠肺炎热点,就硬生生拼凑证据,证明自己预设立场的垃圾论文。这个蹭热点和自我炒作的痕迹,从论文作者把没有经过同行评审的论文,急着拿给媒体进行大肆炒作,就暴露无遗了。所以,这种在中国乃至全世界砸哈佛大学牌子的论文,从一开始就不应该这么发出来。

而且,在论文中帮助分析医院停车场的数据的第三方公司RS Metrics,目前还在借着媒体对于此事的操作而在进行“商业营销”呢,连销售邮箱都迫不及待地给出来了。

更过分的是,这篇论文如今还成为了特朗普当局推卸责任以及反华势力抹黑中国的炮弹,给美国政治场中原本就甚嚣尘上的反华阴谋论,又贡献了新的火力点,可论文的作者们却至今都有没有出面澄清,这更是对科学的亵渎,是学术之耻。

一些武汉的专业学者对于特朗普政府抗疫不力却疯狂甩锅中国的做法也十分不满。我们之前的武汉特派记者樊巍在对武汉大学中南医院院长王行环进行专访时,对方就曾表示,美国的疫情之所以不断恶化,这完全要归罪于特朗普政府不尊重科学的态度。

王行环院长称,我们在疫情早期,因为临床医生,专家学者大家对于病毒传播规律的判断和看法不太一致,所以没有形成一个统一的认识,可一旦大家摸清病毒的基本规律,对于新冠肺炎病毒有了统一认知,国家层面立即响应,举全国之力积极应对,我们很快就遏制住了疫情的蔓延和传播。然而美国政府的做法却恰恰相反,当中国的学者将与新冠肺炎病毒作斗争的经验分享到全世界,当美国自己的专家学者不断提醒美国政府和民众新冠肺炎病毒的可怕之处时,特朗普却选择打压这种声音,告诉大家这只是一种感冒,大家不必过度紧张。“我每天晚上都在与纽约的医生同行联系,他们告诉我,无论美国政府和美国民众对于疫情防控都不太配合,美国政府消极抗疫,美国民众不愿意戴口罩,这让纽约的医生非常绝望。”王行环院长称。

悲哀的是,直到现在特朗普当局都仍然没有承认错误,而是仍在利用哈佛医学院的这种论文污蔑中国。当看着特朗普们、黎智英们、章家敦们,还有一众美国和西方媒体,都在煞有介事和一本正经地报道着这么一篇极为低级的垃圾论文时,看着美国和西方的不少网民被他们忽悠得越来越反智时,作为中国人,我们真不知道是该为他们的脑残而高兴,还是为科学精神在西方的堕落而哭泣!

延伸阅读1:

曾光炮轰哈佛论文!

本文转载自微信公众号“环球网”(ID:huanqiu-com),首发于2020年6月11日,原标题为《曾光炮轰哈佛论文!》,不代表瞭望智库观点。

日前,一份被冠以哈佛医学院名义的论文在西方媒体上流传,该论文通过对武汉医院附近停车场的车流量和百度“咳嗽”“腹泻”等关键词的搜索量分析,得出新冠肺炎可能于去年8月末就开始在武汉传播的结论。不得不说,这样的研究是对大数据流行病学的一个典型误用,更荒谬的是,这样的研究还能被不少西方媒体追捧。

卫健委防控新冠肺炎高级别专家组专家、中国疾病预防控制中心前流行病学首席专家曾光

该研究的荒谬之处非常之多,比较突出的有以下三点:

第一是时间上很荒谬。该研究根据停车场车流量和百度搜索数据把新冠病毒传播的时间推到了去年8月份,众所周知武汉军运会在去年10月份召开,如果按研究推定的8月份病毒已传播,当时世界各地来参加军运会的军人不可能没有感觉,美国的军人还曾因病在武汉的医院就医,更不可能没有察觉到。

第二是对病症的了解很荒谬。该研究中以湖北省妇幼保健院的数据为主要证据之一,那是武汉市主要的儿科医院,但是新冠肺炎的主要感染人群并不是儿童,儿童感染率相对较低。由此可见,撰写该论文的研究人员对于新冠肺炎的病症缺乏基本的了解。

第三是以“咳嗽”和“腹泻”为搜索关键词很荒谬。新冠肺炎的患者早期有咳嗽症状的不少,但早期有腹泻症状的人并不多。而且,如果是新冠肺炎患者的话,不管是咳嗽还是腹泻这些症状最终都会变成肺炎。这个研究并不能解释为什么从去年8月开始,这么长的时间这些症状都没有转化成肺炎?笔者作为国家卫健委高级别专家组的专家,1月18日考察金银潭医院的时候,医院准备好的床位远没有住满,按该研究的论据演绎疫情发展,不可能会出现这样的情况。

这个荒谬的论文之所以会产生,在于其逻辑起点就是荒谬的。该论文是在把病毒起源确定为是武汉的前提下做假设的,如果离开了这个前提,拿同样方法去对全世界其他的城市做同样的分析,特别就近分析一下美国各大城市的情况,相信会得出多得数不胜数的类似结论。即使流行病学有宏观分析的生态学研究方法,该研究也是个典型的生态学谬误。作者放着明显与病毒联系更紧密的一些数据和现象不去分析,而找了这些与病毒联系不沾边、说服力很差的数据来分析,这个研究日后可以作为大数据流行病学教学的反面教材。该论文反映了作者缺乏科学态度,真正的科学家不但要探索支持假设的相关证据,而且要主动寻找一切可以证伪的反面证据。这篇文章在多方面经不起推敲,漏洞百出。

(截图来自论文的原文部分)

更令笔者惊讶的是,这么一篇荒谬的文章竟然能在西方舆论中广泛传播,这反映了一些西方媒体对信息传播的高度选择性,缺乏基本的求实态度。这篇文章发表在哈佛大学的DASH平台上,一些西方媒体就以哈佛医学院的名头为它的可靠性背书。实际上,DASH只是开放性的收集、保存和发布哈佛大学教研人员学术观点的资源库,供学者间交流,并不是一个有严格同行评议的刊物。当然,即使DASH不是一个严肃的同行评议的平台,现在这个文章被推到DASH研究排行的首位,已有同行提出严肃的批评意见,可能对中止传播也无济于事。美国作家马克·吐温有一句谚语,“当真理还没有系上鞋带,谣言已跑遍半个地球”。在笔者看来,哈佛医学院作为世界上最著名的医学院之一,如果任由谬论从其DASH出发,跑遍全世界,是其自身光环的一个污点。

新冠病毒的研究需要全世界科学家共同的、务实的努力,不应该为个别哗众取宠者提供平台。(本文作者系卫健委防控新冠肺炎高级别专家组专家、中国疾病预防控制中心前流行病学首席专家曾光)

世卫组织反驳哈佛研究:

不能对停车场中车辆数辆过度解读,然后跳过两三步就得出结论

日前,哈佛大学医学院一团队发表论文称,通过分析武汉医院附近交通流量和相关百度搜索认为,新冠肺炎在去年8月底就可能传播。6月10日,世卫组织就此回应称,不能对医院停车场汽车数量的变化做过多解读,然后“跳跃”两三个推论,将此同新冠肺炎疫情相联系。

在当天举行的例行记者会上,世界卫生组织卫生紧急项目负责人迈克尔·瑞安表示,世卫组织会审视所有不同的研究方法,但是对已经进行的研究要谨慎作出结论。瑞安说,地理空间信息可以用来追踪气候变化、人口迁移、环境污染等,是一个有用的工具。但是不能对医院停车场汽车数量的变化做过多解读,然后“跳跃”两三个步骤,得出推论,将此同新冠肺炎疫情相联系,这个证据本身并不能说明什么问题。

瑞安表示,世卫组织阅读、研究全球所有的相关科学信息,并进行详尽的分析。我们查看每一个信息源,对其进行评估、验证,审视该信息是否有助于对成员国提供更完善的公共卫生建议。对于哈佛大学团队的此项研究,我们乐于关注,但仅限于此。因为这并不能帮助我们应对新冠肺炎疫情,对世卫组织向成员国提供最好的建议、支持成员国抗疫也没有助益。

延伸阅读2:

百度回应被哈佛引用

本文转载自百度官方微博,发表于2020年6月11日,不代表瞭望智库观点。

近日哈佛大学医学院发布论文,称从百度上关于“咳嗽”与“腹泻”的搜索数据上升,得出新冠病毒去年秋天就在武汉传播的结论。

@百度 10日发文表示反对,认为这种研究方式是“非常牵强和不严谨的”,呼吁相关研究更加科学严谨地引用百度数据。

@百度 配上一张百度指数图表,图中显示武汉地区“咳嗽”的整体搜索量峰值跟每年的流感季是吻合的,而“腹泻”的搜索量与往年相比并没有明显变化。同时2019年12月左右“腹泻”搜索量还有轻微的下降。

今天(11日),外交部发言人华春莹也在例行记者会上也回应指出,“论文认为是关键证据之一的、比如说咳嗽腹泻的检索量,我注意到中方有些媒体也做了一些深度的调研,就发现论文当中引述的2019年9月份对咳嗽和腹泻两个关键词的检索量,还不如2017年和2018年同期。”

推荐阅读